SoSe2022
| Merkmal | Kennwert | Parameter |
|---|---|---|
| Mittelwert | \(\bar{X}\) | \(\mu\) (mü) |
| Varianz | \(s^2\) | \(\sigma^2\) (sigma-qu.) |
| Standardabweichung | \(s\) | \(\sigma\) (sigma) |
| Korrelation | \(r\) | \(\rho\) (rho) |
| Anteilswert | \(h\) bzw. \(p\) | \(\pi\) (pi) |
\[\hat{\sigma}^2 = s^2\frac{n}{n-1} \Rightarrow E(\hat{\sigma}^2)=\sigma^2\] \[\hat{\sigma}^2=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n}\cdot\frac{n}{n-1}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1}\]
var() und die Excel/Calc Funktion =VARIANZ() berechnen die korrigierte Varianz.=VAR.P() für die unkorrigierte Varianz.\[\hat{\sigma}_{\bar{X}}=\sqrt\frac{\hat{\sigma}^2}{n}\]
\[\hat{\sigma}_{Md}=1.25\sqrt\frac{\hat{\sigma}^2}{n}\]
\[\hat{\sigma}_{s}=\sqrt\frac{\hat{\sigma}^2}{2n}\]
\[\hat{\sigma}_{\%}=\sqrt\frac{P\cdot Q}{n}\]
Diese Fragen kann ein Punktschätzer nicht beantworten – aber ein Intervallschätzer!
Im folgenden gehen wir drei Beispiele für die Konfidenzintervalle des Mittelwerts durch.
(wenn die Populationsvarianz bekannt ist und eine Normalverteilung angenommen werden kann)
\[KI_{95\%} = z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}} \Rightarrow P \{\bar{X}-z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}}<\mu<\bar{X}+z_{\alpha/2}\cdot\sqrt{\frac{\sigma^2}{n}}\} = 0.95\]
Bei \(KI_{90\%}\) ist \(z_{\alpha/2}=1.65\), bei \(KI_{95\%}\) ist \(z_{\alpha/2}=1.96\), bei \(KI_{99\%}\) ist \(z_{\alpha/2}=2.58\)
\(\mu = 120\text{mm}\), \(\sigma = 50\text{mm}\)
# Population pop <- rnorm(10000000, mean = 120, sd = 50) # Stichprobe big_sample <- sample(pop, size = 500)
→ Wir sind zu 95% sicher, dass der wahre Mittelwert im Bereich 115 - 123.50 liegt (119.20 ± 4.30).
(big_mean <- mean(big_sample))
[1] 119.2477
(big_se <- sd(big_sample)/sqrt(500))
[1] 2.169662
(z_lower <- qnorm(p = 0.025, mean = 0, sd = 1))
[1] -1.959964
(z_upper <- qnorm(p = 0.975, mean = 0, sd = 1))
[1] 1.959964
(CI_lower <- z_lower*big_se)
[1] -4.25246
(CI_upper <- z_upper*big_se)
[1] 4.25246
\[KI_{95\%} = t_{(\alpha/2,df)}\sqrt{\frac{s^2}{n}} \Rightarrow P \{\bar{X}-t_{(\alpha/2,df)}\cdot\sqrt{\frac{s^2}{n}}\leq \mu \leq \bar{X}+t_{(\alpha/2,df)}\sqrt{\frac{s^2}{n}}\} = 0.95\] (df = degrees of freedom: n-1)
\(\mu = 120\text{mm}\), \(\sigma = 50\text{mm}\)
# Population pop <- rnorm(10000000, mean = 120, sd = 50) # Stichprobe small_sample <- sample(pop, size = 5)
→ Wir sind zu 95% sicher, dass der wahre Mittelwert im Bereich 33.80 - 125.50 liegt (79.60 ± 45.90).
(small_mean <- mean(small_sample))
[1] 79.62948
(small_se <- sd(small_sample)/sqrt(5) )
[1] 16.51951
(t_lower <- qt(p = 0.025, df = 4)) # df=n-1
[1] -2.776445
(t_upper <- qt(p = 0.975, df = 4))
[1] 2.776445
(CI_lower <- t_lower*small_se)
[1] -45.8655
(CI_upper <- t_upper*small_se)
[1] 45.8655
| FG | 0.5 | 0.2 | 0.1 | 0.05 | 0.025 | 0.01 | 0.005 | 0.002 | 0.001 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1.000 | 3.078 | 6.314 | 12.706 | 25.452 | 63.657 | 127.321 | 318.309 | 636.619 |
| 2 | 0.816 | 1.886 | 2.920 | 4.303 | 6.205 | 9.925 | 14.089 | 22.327 | 31.599 |
| 3 | 0.765 | 1.638 | 2.353 | 3.182 | 4.177 | 5.841 | 7.453 | 10.215 | 12.924 |
| 4 | 0.741 | 1.533 | 2.132 | 2.776 | 3.495 | 4.604 | 5.598 | 7.173 | 8.610 |
| 5 | 0.727 | 1.476 | 2.015 | 2.571 | 3.163 | 4.032 | 4.773 | 5.893 | 6.869 |
| 10 | 0.700 | 1.372 | 1.812 | 2.228 | 2.634 | 3.169 | 3.581 | 4.144 | 4.587 |
| 15 | 0.691 | 1.341 | 1.753 | 2.131 | 2.490 | 2.947 | 3.286 | 3.733 | 4.073 |
| 20 | 0.687 | 1.325 | 1.725 | 2.086 | 2.423 | 2.845 | 3.153 | 3.552 | 3.850 |
| 30 | 0.683 | 1.310 | 1.697 | 2.042 | 2.360 | 2.750 | 3.030 | 3.385 | 3.646 |
| 40 | 0.681 | 1.303 | 1.684 | 2.021 | 2.329 | 2.704 | 2.971 | 3.307 | 3.551 |
Wie groß ist das \(KI_{95\%}\) beim Zugverhalten verschiedener Vogelarten (von Skandinavien)?
| Kenngröße | Buchfink | Grünfink | Mönchsgrasmücke |
|---|---|---|---|
| Mittelwert | 1800km | 1950km | 3000km |
| Standardabweichung s | ±900km | ±400km | ±1000km |
| Stichprobengröße n | 20 | 10 | 30 |
| Kenngröße | Buchfink | Grünfink | Mönchsgrasmücke |
|---|---|---|---|
| Mittelwert | 1800km | 1950km | 3000km |
| Standardabweichung s | ±900km | ±400km | ±1000km |
| Stichprobengröße n | 20 | 10 | 30 |
Unterscheiden sich verschiedene Vogelarten von Skandinavien in der mittleren Entfernung ihrer Zugdistanzen?
mean(population)
[1] 112.0038
x <- sample(population, 20) mean(x)
[1] 111.8842
hist(x, main = "Stichprobe (N=20)")
it <- 10000 # 10000 Iterationen
sm <- numeric(it)
for (i in 1:it){
xs <- sample(x, replace = T)
# (N auch 20)
sm[i] <- mean(xs)
}# 2.5% und 97.5% Quantilen = 95% Konfidenzgrenzen: quantile(x = sm, probs = c(0.025, 0.975))
2.5% 97.5% 111.4535 112.3710
# KI: quantile(sm, c(0.025, 0.975)) - mean(x)
2.5% 97.5% -0.4306154 0.4868308
# Vergleich zum (symmetrischen) t-basierten KI qt(p = 0.975, df = 19)*(sd(x)/sqrt(20))
[1] 0.503608
Bei normalverteilten Daten lässt sich die Formel zur Berechnung des KI des Mittelwerts nach der Stichprobe umformen:
(E ist der maximale Schätzfehler)
Wie groß muss N sein, damit wir zu 99% sicher sind, dass der wahre Mittelwert im Bereich ±25km (=E) um den Stichprobenmittelwert liegt?
\(n=(\frac{z_{\alpha/2}\cdot\sigma}{E})^2=(\frac{2.58\cdot 900}{25})^2 = 8599\)
z_alpha_2 <- qnorm(p = 0.995, 0, 1) E <- 25 s <- 900 (z_alpha_2*s / E)^2
[1] 8598.826
Bei weiteren Fragen: saskia.otto(at)uni-hamburg.de

Diese Arbeit is lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Angaben.